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ZUSAMMENFASSUNG 



Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von 
Trainingssprechern 

Beschrieben wird ein Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer 
Mehrzahl von Trainingssprechern bei dem zunachst sprecherabhangige Modell-Sets fixr die 
einzelnen Trainingssprecher unter Verwendung von Trainingssprachdaten der einzelnen 
Trainingssprecher gebildet v^erden, wobei die Modelle (SD) eines Modell-Sets jeweils 
durch mehrere Modellparameter beschrieben werden. Fiir jeden Sprecher wird dann ein 
kombinierten Modells in einem hochdimensionalen Modellraum durch Verkettung der 
Modellparameter der Modelle der einzelnen Trainingssprecher zu jeweils einem zusam- 
menhangenden Supervektor abgebildet. Anschliel?end wird eine Transformation unter 
Reduzierung der Dimension des Modellraums zur Gewinnung von Eigenraum-Basisvekto- 
ren (E^ ) durchgefuhrt. Um eine eindeutige Zuordnung der Modellparameter in 
den Supervektoren zu gewahrleisten, wird dabei zunachst ein gemeinsames sprecherunab- 
hangiges Modell-Set fiir die Trainingssprecher entwickelt und dieses Modell-Set an die 
einzelnen Trainingssprecher zur Entwicklung der sprecherabhangigen Modell-Sets 
adaptiert. Die Zuordnung der Modellparameter der Modelle (SI) des sprecherunabhangi- 
gen Modell-Sets zu den Modellparametern der Modelle (SD) der sprecherabhangigen 
Modell-Sets wird dabei erfasst und die Verkettung der Modellparameter der einzelnen 
Modell-Sets zu den Supervektoren erfolgt unter Berucksichtigung dieser Zuordnung. 

Fig. 1 
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BESCHREIBUNG 

Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von 
Trainingssprechern 

Die Erfindung betrifft ein Verfahren zur Ermittlung eines Eigenraunns zur Darstellung 
5 einer Mehrzahl von Trainingssprechern. Bei einem solchen Verfahren werden zunachst 
sprecherabhangige Modell-Sets fur die einzelnen Train ingssprecher unter Verwendung von 
Trainingssprachdaten der einzelnen Trainingssprecher entwickelt, wobei die Modelle eines 
Modell-Sets jeweils durch mehrere Model! parameter beschrieben werden. Es wird dann in 
einem hochdimensionalen Vektorraum ein kombiniertes Modell fur jeden Sprecher 

10 abgebildet, indem eine Mehrzahl der Modellparameter der Modell-Sets der einzelnen 
Trainingssprecher zu jeweils einem zusammenhangenden Supervektor verkettet wird. 
Anschliefiend wird unter Reduzierung der Dimension zur Gewinnung von Basisvektoren 
fur den Eigenraum eine Transformation auf den Supervektoren der Trainingssprecher 
durchgefiihrt. Dariiber hinaus betrifft die Erfindung ein Verfahren zur Spracherkennung, 

15 bei dem ein Ausgangs-Modell-Set an einen aktuellen Sprecher unter Verwendung des 
erfindungsgemafS erzeugten Eigenraums angepasst wird. 

Spracherkennungssysteme arbeiten in der Regel in der Weise, dass zunachst das Sprachsig- 
nal in einer Merkmalsanalyseeinheit spektral oder zeitlich analysiert wird. In dieser Merk- 

20 malsanalyseeinheit werden die Sprachsignale ublicherweise in Abschnitte, sogenannte 

„Fenster" (Frames), aufgeteilt. Diese Fenster werden dann fur die weitere Analyse in geeig- 
neter Form codiert und digitalisiert. Ein beobachtetes Signal kann dabei durch mehrere 
verschiedene Merkmale bzw. in einem mehrdimensionalen Merkmalsraum durch einen 
„Beobachtungsvektor" oder „Merkmalsvektor" beschrieben werden. Die eigentliche 

25 Spracherkennung, d.h. die Erkennung des Bedeutungsinhalts des Sprachsignals, erfolgt 
schliefilich dadurch, dass die durch die Beobachtungsvektoren beschriebenen Abschnitte 
des Sprachsignals bzw. eine ganze Sequenz von Beobachtungsvektoren mit Modellen von 
verschiedenen, sinnvoll moglichen Sequenzen von Beobachtungen verglichen werden und 
somit ein Modell herausgesucht wird, welches am besten zu dem aufgetretenen Beobach- 

30 tungsvektor bzw. der Sequenz passt. Das Spracherkennungssystem muss hierzu eine Art 
Bibliothek von alien moglichen Signalfolgen aufweisen, aus denen das Spracherkennungs- 
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system dann die jeweils passende Signalfolge auswiihlen kann. D.h. das Spracherkennungs- 
system verfugt iiber ein Set von akustischen Modellen fiir verschiedene akustische Einhei- 
ten, die im Prinzip sinnvollerweise bei einem Sprachsignal vorkommen konnten. Bei den 
akustischen Einheiten kann es sich beispielsweise um Phoneme oder phonemartige Einhei- 
5 ten wie Diphone oder Triphone handeln, bei denen jeweils das Modell des Phonems vom 
vorhergehenden und/oder nachfolgenden Phonem innerhalb eines Kontexts abhangt. 
Selbstverstandlich kann es sich bei den akustischen Einheiten auch um ganze Worter 
handeln. Dementsprechend kann ein solches Modell-Set nur aus Modellen von Phonemen, 
von Diphonen, Triphonen oder Ahnlichem, von Wortern oder einer Mischung von 
10 verschiedenen akustischen Einheiten bestehen. 



Eine haufig verwendete Methode, akustische Einheiten, d.h. bestimmte Folgen von Beo- 
bachtungsvektoren, zu beschreiben, ist die Verwendung sogenannter „Hidden-Markov^- 
Modelle" (HM-Modelle). Es handelt sich hierbei um stochastische Signalmodelle, bei 
15 denen davon ausgegangen wird, dass einer Signalfolge eine sogenannte „Markow-Kette" 
von verschiedenen Zustanden zugrunde liegt, wobei zwischen den einzelnen Zustanden 
bestimmte Obergangswahrscheinlichkeiten bestehen. Die jeweiligen Zustande selbst sind 
dabei nicht erkennbar („Hidden"), und das Auftreten der tatsachlichen Beobachtungen in 
den einzelnen Zustanden wird dutch eine Wahrscheinlichkeitsdichte in Abhangigkeit vom 
20 jeweiligen Zustand beschrieben. Ein Modell fiir eine bestimmte Sequenz von Beobachtun- 
gen kann daher in diesem Konzept im Wesentlichen durch die Folge der verschiedenen 
durchlaufenen Zustande, durch die Dauer des Aufenthalts in den jeweiligen Zustanden, 
\ die (Jbergangswahrscheinlichkeit zwischen den Zustanden sowie die Wahrscheinlichkeit 

des Auftretens der unterschiedlichen Beobachtungen in den jeweiligen Zustanden beschrie- 
25 ben werden. Ein Modell fiir ein bestimmtes Phonem wird dabei so erzeugt, dass zunachst 
geeignete Anfangsparameter fiir ein Modell verwendet werden und dann in einem soge- 
nannten „T raining" dieses Modell durch Veranderung der Parameter so an das zu model- 
lierende Phonem der jeweiligen Sprache angepasst wird, bis ein optimales Modell gefunden 
ist. Die Details iiber die verschiedenen HM-Modelle sowie die einzelnen anzupassenden 
30 genauen Parameter spielen fiir die vorliegende Erfindung keine wesentliche Rolle und 

werden daher nur insoweit spater npch weiter beschrieben, als sie fiir das Verstandnis der 
Erfindung notwendig sind. 
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Modelle konnen entweder sprecherabhangig (sogenannte SD-Modelle, Speaker 
Dependent) oder sprecherunabhangig (sogenannte SI-Modelle, Speaker Independent) sein. 
Sprecherabhangige Modelle sind genau auf einen individuellen Sprecher trainiert, indem 
5 dem Spracherkennungssystem zuvor eine gtoRe Anzahl von Wortbeispielen des individuel- 
len Sprechers gegeben wird, wobei der Inhalt dieser Wortbeispiele dem System bekannt ist. 
Diese Beispiele werden Trainingsdaten genannt. Derartige sprecherabhangige Systeme bzw. 
Modelle sind relativ exakt fiir das jeweilige Individuum, fiir das sie trainiert worden sind. 
Sie sind aber auSerst unexakt fiir jede andere Person. Bei einem sprecherunabhangigen 
^ 10 System erfolgt dagegen das Training der Modelle anhand von Trainingsdaten von mog- 

^ lichst vielen verschiedenen Sprechern, um so Modelle zu erzeugen, mit denen das System 

in der Lage ist, jede Person, die die jeweilige Sprache spricht, zu verstehen. Die Fehlerrate 
in einem solchen sprecherunabhangigen System ist jedoch bei der Erkennung von Sprach- 
daten eines Sprechers, der nicht zu den Trainingssprechern gehort, etwa 20 bis 25 Prozent 
15 hoher als die Fehlerrate bei einem vergleichbaren sprecherabhangigen System, das speziell 
fur diesen Sprecher trainiert woirde. 

In vielen Anwendungen von Spracherkennungssystemen, beispielsweise bei einer Verwen- 
dung in automatischen Telefon-Beanrsvortungssystemen, besteht leider nicht die Moglich- 

20 keit, das System bzw. die Modelle zuvor auf einen bestimmten Sprecher zu trainieren. Um 
die Performance solcher Systeme zu verbessern, beinhalten viele Spracherkennungssystem 
,-^1^ inzwischen die Moglichkeit, das System wahrend der Spracherkennung an den Sprecher 

\ anhand der bereits beobachteten Sprachdaten anzupassen. Eine einfache Moglichkeit hier- 

zu besteht darin, die vom aktuellen Sprecher stammenden, zu erkennenden Beobachtungen 

25 so zu transformieren, dass sie naher an den Beobachtungen eines Referenzsprechers liegen, 
fur den ein sprecherabhangiges Modell trainiert wurde. Eine weitere Moglichkeit besteht 
darin, die Trainingssprecher entsprechend ihrer Ahnlichkeit zueinander zu gruppieren und 
fiir jede Gruppe von ahnlichen Sprechern ein gemeinsames Modell zu trainieren. Es wird 
dann fur den jeweiligen aktuellen Sprecher das Modell der Gruppe gewahlt, in die der 

30 Sprecher am besten hineinpasst. Eine weitere, besonders gute und effektive Methode ist die 
Anpassung eines Ausgangs-HM-Modells an den jeweiligen Sprecher, d.h. es werden ver- 
schiedene HM-Parameter so verandert, dass das veranderte Modell besser zu dem jeweili- 
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gen Sprecher passt. Bei dieser Methode wird wahrend der Spracherkennung ein sprecher- 
abhangiges Modell gebildet. Die beiden bekanntesten Modelladaptionstechniken sind die 
sogenannte Maximum-A-Posteriori-Abschatzung (MAP) und das Maximum-Likelihood- 
Linear-Regression- Verfahren (MLLR). Diese sehr efFektiven Techniken haben jedoch den 
5 Nachteil, dass sie sowohl erhebliche Rechenleistung als auch Zeit und eine ausreichende 
Menge von Sprachsignalen des neuen Sprechers benotigen, bis das Modell in geeigneter 
Form an den neuen Sprecher angepasst ist. 

In der EP 0 984 429 A2 wird daher ein neuartiges Verfahren zur Anpassung eines Sprach- 

10 erkennungssystems an einen zu erkennenden Sprecher verges chl age n, w^elches mit der dort 
so genannten Eigenvoice -Technik arbeitet. Startpunkt dieser Eigenvoice-Methode ist die 
Darstellung von Sprechern und ihrer kombinierten akustischen Modelle als Elemente eines 
hochdimensionalen linearen Raums, im Folgenden Modellraum genannt, indem alle 
Parameter, die einen Sprecher beschreiben, zu einem „Supervektor" verkettet werden. Auf 

15 diesen Supervektoren der Trainingssprecher wird dann eine lineare Transformation durch- 
gefuhrt, durch die Eigenraum-Basisvektoren fiir den sogenannten Eigenraum gev^onnen 
werden. Bei diesem Eigenraum handelt es sich um einen linearen Unterraum des hoch- 
dimensionalen Modellraums. Die Transformation wird dabei in der Weise durchgefiihrt, 
dass die Eigenraum-Basisvektoren verschiedene Korrelations- oder Diskriminierungsmerk- 

20 male zwischen den verschiedenen Trainingssprechern bzw. den Modellen der Trainings- 
sprecher reprasentieren. Eine dort genannte Moglichkeit der Transformation ist beispiels- 
^^p^ weise die ^Principal Component Analysis" (PCA), bei der mittels der Supervektoren der 

verschiedenen Sprecher eine Korrelations matrix gebildet wird und als Eigenraum-Basis- 
vektoren die Eigenvektoren dieser Korrelationsmatrix ermittelt werden. Weitere mogliche 

25 Methoden sind die „Linear Discriminant Analysis" (LDA), die „ Fact or Analysis" (FA), die 
„Independent Component Analysis" (ICA) oder die ^Singular Value Decomposition" 
(SVD). Alle diese Transformationen sind jedoch relativ rechenintensiv. Jeder der so 
geschaffenen Eigenraum-Basisvektoren reprasentiert eine unterschiedliche Dimension, in 
der einzelne Sprecher voneinander unterschieden werden konnen. Aufierdem kann jeder 

30 Supervektor jedes Sprechers aus dem urspriinglichen Train ingsmaterial durch eine 
Linearkombination dieser Basisvektoren beschrieben werden. 
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Ein Problem der Eigenvoice-Methode besteht jedoch in der Umsetzung dieses Verfahrens 
zur Verwendung in der Erkennung von kontinuierlicher Sprache nnit grofiem Vokabular. 
Bei einer solchen Spracherkennung bestehen erheblich mehr Moglichkeiten von aufeinan- 
derfolgenden Phonemen, und es liegt haufiger ein VerschleiS von Silben etc. vor als bei 
5 einer Eingabe von einzelnen festgelegten Befehlen. Die reale Verteilung der Beobachtun- 
gen ist daher zu difFus, und e^ gibt zu viele Variationen. Bei der Verwendung von HM- 
Modellen kann daher beispielsweise eine akustische Einheit nicht mehr durch einen 
einfachen Zustand oder durch mehrere einzelne Zustande beschrieben werden, welche 
jeweils nur durch eine einzige Wahrscheinlichkeitsdichte, beispielsweise eine einfache 
10 Gaufi- oder Laplace-Dichte, beschrieben werden. Stattdessen ist eine Mischung von 

verschiedenen Dichten notig, d.h. es miissen mehrere solcher Dichten mit unterschied- 
lichen Wichtungen iiberlagert werden, um eine der realen Verteilung angepasste Wahr- 
scheinlichkeitsdichte zu erreichen. 

15 Geht man von einer Sprache aus, die 42 unterschiedliche Phoneme hat, und wird jedes 
dieser Phoneme nur durch drei Zustande pro Phonem (Anfangszustand, Mittelzustand, 
Endzustand) beschrieben, so fiihrt dies bereits zu 142 verschiedenen Zustanden, die 
beschrieben werden miissen. Bei einer Verwendung von kontextabhangigen Phonemen, 
was bei einer Erkennung von kontinuierlicher Sprache sehr sinnvoll ist, werden fiir jedes 

20 Phonem verschiedene kontextabhangige Modelle trainiert, je nachdem, welches Phonem 
unmittelbar davor und/oder danach angrenzt (Triphone). Zur Beschreibung solcher 
^j^"^ Triphone einer Sprache sind insgesamt beispielsweise 2000 Zustande notig. Bei der Ver- 

wendung einer ausreichenden Anzahl von verschiedenen Wahrscheinlichkeitsdichten pro 
Zustand (ca. 30) kommt man so zu etwa 60 000 verschiedenen Wahrscheinlichkeits- 

25 dichten. Dies fiihrt bei dem iiblicherweise verwendeten Merkmalsraum von ca. 30 bis 40 
Dimensionen dazu, dass letzten Endes ein einzelner Sprecher durch annahernd zwei 
Millionen einzelne Modellparameter beschrieben wird. Diese Modellparameter umfassen 
alle Merkmalsparameter zur Beschreibung der 60 000 Wahrscheinlichkeitsdichten im 
Merkmalsraum, wobei in der Regel von jeder Dichte nur die Mittelwerte im Merkmals- 

30 raum festgelegt werden und die Varianz fiir alle Dichten gleich und konstant angenommen 
wird. Selbstverstandlich konnen aber fiir jede Dichte auch zusatzliche Parameter verwendet 
werden, die die Kovarianz individuell fiir diese Dichte festlegen. Aufierdem konnen die 
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Modellpaxameter u.a. noch die Obergangswahrscheinlichkeiten zwischen den Zustanden 
und weitere Parameter zur Beschreibung der verschiedenen HM-Modelle umfassen. Die 
annahernd zwei Millionen Modell parameter miissen dann zur Darstellung in dem entspre- 
chend dimensionierten Modellraum zu den Supervektoren verkettet werden. Hierbei muss 
5 auf die Anordnung der einzelnen Parameter geachtet werden. Im Prinzip ist die Anord- 
nung der einzelnen Parameter zueinander zwar beliebig, jedoch muss sichergestellt werden, 
dass eine einmal gewahlte Anordnung fiir alle Sprecher gleich gewahit wird. Insbesondere 
muss auch die Anordnung der einzelnen Merkmals parameter, welche die einzelnen Wahr- 
scheinlichkeitsdichten eines bestimmten Zustands beschreiben, fiir alle Sprecher so gewahit 
10 werden, dass die Parameter iiber alle Sprecher optimal korreliert sind. Nur im Falle der 
gleichartigen Anordnung aller Parameter innerhalb der Supervektoren der einzelnen Spre- 
cher ist sichergestellt, dass die ermittelten Basisvektoren des Eigenraums die gewiinschte 
Information zur Unterscheidung verschiedener Sprecher richtig reprasentieren. 

15 Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren anzugeben, welches bei 
der Ermittlung eines Eigenraums eine gleichartige Anordnung aller Parameter in den 
Supervektoren der einzelnen Sprecher sicherstellt. 



Diese Aufgabe wird durch ein Verfahren gemafi Patentanspruch 1 gelost. 



20 



Kerngedanke der Erfindung ist, dass zunachst in einem ersten Schritt ein gemeinsames 
sprecherunabhangiges Modell-Set fiir die Trainingssprecher unter Verwendung der 
Trainingssprachdaten aller beteiligten Trainingssprecher entwickelt wird. Die gesamtem 
Trainingssprachdaten werden dabei dazu herangezogen, um fiir die verschiedenen akusti- 

25 schen Einheiten jeweils sprecherunabhangige Modelle zu trainieren. Anschliefiend werden 
in einem zweiten Schritt die Trainingssprachdaten der einzelnen Trainingssprecher dazu 
verwendet, um das gefundene sprecherunabhangige Modell-Set jeweils an die einzelnen 
Trainingssprecher anzupassen. Diese Anpassung kann beispielsweise mit den iiblichen 
Verfahren wie MAP oder MLLR erfolgen. Bei der Adaption der Modelle des gemeinsamen 

30 sprecherunabhangigen Modell-Sets an die Modelle der sprecherabhangigen Modell-Sets der 
einzelnen Sprecher sind die jeweiligen Bedeutungsinhalte der Sprachdaten bekannt. Es 
handelt sich um eine sogenannte „iiberwachte Adaption („supervised adaptation"). Bei 
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dieser Adaption kann problemlos erfasst werden, welche Modellparameter der Modelle des 
sprecherunabhangigen Modell-Sets den einzelnen Modellparametern der entsprechenden 
Modelle der sprecherabhangigen Modell-Sets zugeordnet werden, so dass auch eine eindeu- 
tige Zuordnung der Parameter untereinander festlegbar ist. Die Verkettung der einzelnen 
Modellparameter der Modell-Sets zu den Supervektoren erfolgt dann derart, dass die 
Modellparameter der Modelle der sprecherabhangigen Modell-Sets, die denselben Modell- 
parametern desselben Modells des sprecherunabhangigen gemeinsamen Modell-Sets zuge- 
ordnet sind, auch an den entsprechenden identischen Positionen der jeweiligen Super- 
vektoren angeordnet werden. 

Somit ist selbst bei einer au{?erordentlich hohen Vielzahl verschiedener Modellparameter 
eine eindeutige Anordnung der einzelnen Parameter innerhalb der Supervektoren gewahr- 
leistet. 



15 Das Verfahren bietet sich insbesondere zur Entvt^icklung von Eigenraumen fiir Sprachsyste- 
me an, die auf Basis der eingangs genannten Hidden-Markow-Modelle arbeiten. Im 
Prinzip kann ein solches Verfahren aber auch bei anderen Modellen genutzt werden, bei 
denen es darum geht, eine Vielzahl von Parametern geordnet zu Supervektoren zu verket- 
ten, um so beispielsweise verschiedene Sprecher als Punkte in einem hochdimensionalen 

20 Modellraum darzustellen. 

Bei einer besonders bevorzugten Ausfiihrungsform des erfindungsgemafien Verfahrens 
^ wird zur Ermittlung der Basis- Vektoren des Eigenraums der hochdimensionale Modell- 

raum zunachst durch einen einfachen Basiswechsel auf einen Sprecher-Unterraum 

25 reduziert, in dem die Supervektoren aller Trainingssprecher angeordnet sind. Die eigent- 
liche Transformation zur Ermittlung der Eigenraum-Basisvektoren wird dann in diesem 
Sprecher-Unterraum durchgefiihrt. Anschliefiend werden die gefundenen Eigenraum- 
Basisvektoren auf einfache Weise in den Modellraum riicktransformiert. Ein solcher 
einfacher Basiswechsel ist beispielsweise durch eine Gram-Schmidt-Orthonormierung der 

30 Supervektoren selbst oder vorzugsweise durch eine solche Orthonormierung der DifiFerenz- 
vektoren der Supervektoren zu einem gewahlten Ursprungsvektor moglich. Als Ursprungs- 
vektor wird dabei vorzugsweise ein mittlerer Supervektor verwendet. Das ist der Supervek- 
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tor, dessen Parameter jeweils die Mittelwerte der entsprechcnden Parameter der einzelnen 
sprecherabhangigen Supervektoren sind . Ein solcher einfacher Basiswechsel lasst sich auf 
geeignete Weise auch in hochdimensionalen Raumen auf heutigen Rechnern problemlos 
durchfiihren. Um n verschiedene Sprecher in diesem Sprecher- Unterraum zu reprasen- 
tieren, muss der Sprecher-Unterraum maximal eine Dimension n-1 aufweisen, d.h. die 
Dimensionen des Raums, in dem dann die eigentliche Berechnung der Basisvektoren des 
Eigenraums durchgefuhrt wird, sind gegeniiber dem urspriinglichen Modellraum stark 
reduziert, wodurch erhebliche Rechenleistung und Speicherplatz eingespart werden. Im 
Falle des eingangs genannten Modellraums von nal^iezu zwei Millionen Dimensionen zur 
Verwendung fiir die Erkennung kontinuierlicher Sprache ist bei den derzeitig zur Verfii- 
gung stehenden Rechnern eine solche Reduzierung der benotigten Rechenkapazitat und 
des benotigten Hauptspeicherplatzes notwendig, um uberhaupt Eigenraum-Ba5isvektoren 
nach den eingangs genannten Transformations-Verfahren ermitteln zu konnen. 

Die verschiedenen Basisvektoren des Eigenraums werden vorzugsweise nach ihrer Wichtig- 
keit fur die Unterscheidung verschiedener Sprecher geordnet. Dadurch besteht die Mog- 
lichkeit, fiir die Verwendung im Spracherkennungssystem den Eigenraum noch weiter zu 
reduzieren, indem die unwichtigsten Basisvektoren des Eigenraums, die nur wenig 
Informationen enthalten, mit denen Sprecher unterschieden werden konnen, verworfen 
werden. Die Dimension des letztHch in einer Spracherkennung genutzten Eigenraums 
kann dabei erheblich geringer sein als die Anzahl der Trainingssprecher. Es reichen somit 
wenige Koordinaten aus, um die einzelnen sprecherabhangigen Modelle der Trainings- 
sprecher in dem so geschafFenen a priori-optimierten Eigenraum innerhalb des hochdimen- 
sionalen Modellraums zu charakterisieren und eine Adaption an einen neuen Sprecher 
durchzufiihren. Die Anzahl der benotigten Koordinaten betragt dabei nur einen Bruchteil 
der Anzahl an Freiheitsgraden von anderen Adaptionsmethoden wie beispielsweise MLLR. 
Bei Verwendung des PCA-Verfahrens zur Ermittlung der Eigenvektoren der Kovarianz- 
matrix der Supervektoren als Eigenraum-Basisvektoren kann die Bewertung der Eigen- 
vektoren anhand der zugehorigen Eigenwerte erfolgen. Eigenvektoren mit hoheren Eigen- 
werten sind wich tiger als Eigenvektoren mit niedrigeren Eigenwerten. 
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Erfindungsgemafi kann ein solcher Eigenraum in einem Verfahren zur Spracherkennung 
verwendet werden, bei dem zunachst ein Ausgangsmodell-Set anhand bereits beobachteter, 
zu erkennender Sprachdaten eines aktuellen Sprechers an diesen Sprecher unter Verwen- 
dung des Eigenraums angepasst wird. 

5 

Hierfiir bestehen verschiedene Moglichkeiten. Einige davon werden in der eingangs 
genannten EP 0 984 429 A2 genannt. Die Anpassung des Ausgangsnnodells an den jeweili- 
gen Sprecher erfolgt dabei in der Weise, dass das angepasste Modell schlieGlich innerhalb 
des Eigenraums liegt, d.h. sich als Linearkombination der verschiedenen Basisvektoren des 
10 Eigenraums darstellen lasst. 

Die einfachste Methode ist die direkte Projektion des Ausgangsmodells in den Eigenraum, 
Eine solche Projektion findet genau den Punkt innerhalb des Eigenraums, der am nachsten 
zu dem auCerhalb des Eigenraums liegenden Ausgangsmodell des neuen Sprechers liegt. 
15 Ungunstigerweise ist diese Methode jedoch relativ grob. Dariiber hinaus kommt eine 

solche Projektionsoperation nur dann in Frage, wenn von dem neuen Sprecher geniigend 
Eingangs-Sprachmaterial vorliegt, sodass alle akustischen Einheiten in den Daten zumin- 
dest einmal reprasentiert sind. In vielen Anwendungen sind diese Bedingungen nicht 
erfiillbar. 

20 

Als Alternative besteht die Moglichkeit der in dieser Schrift ebenfalls vorgeschiagenen 
Methode der Maximum-Likelihood-Eigenvoice-Decomposition (MLED). Bei dieser 
Methode wird ein Punkt innerhalb des Eigenraums gefunden, der genau den Supervektor 
reprasentiert, der zu einem Hidden-Markow-Modell-Set gehort, welches die grofite 
25 Wahrscheinlichkeit hat, durch die Sprache des neuen Sprechers erzeugt zu werden. Auf die 
genaue Technik dieses Verfahrens soli hier nicht weiter eingegangen werden. Es wird 
hierzu auf die EP 0 984 429 A2 verwiesen. 



Bei beiden Verfahren wird auch fiir solche Sprecher, die Charakteristika aufweisen, welche 
30 weit von den verschiedenen Charakteristika der Trainingssprecher abweichen, nur ein 

Modell-Set innerhalb des Eigenraums erzeugt. Da solche Sprecher aber durch ein Modell- 
Set im Eigenraum der Trainingssprecher nicht optimal reprasentiert werden, ist es sinnvoll, 
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zunachst mit dem erfindungsgemafien Verfahren ein Modell-Set innerhalb des Eigenraums 
zu entwickeln und dieses als neues Ausgangs-Modell-Set fur eine weitere optimale Anpas- 
sung mittels einer MAP- oder MLLR-Methode zu nutzen. Selbstverstandlich konnen aber 
auch beliebige andere Verfahren verwendet werden, um das Ausgangs-Modell-Set unter 
5 Nutzung des Eigenraums an den neueh Sprecher zu adaptieren. 

Mit dem erfmdungsgemafien Verfahren ist eine relativ schnelle, einfache Sprecheradaptie- 
rung bei der Erkennung eines kontinuierlichen Sprachsignals moglich. Der uberwiegende 
Rechenaufwand muss nur einmal zur Bearbeitung des Trainingssprachmaterials und zur 
10 AufFindung des Eigenraums durchgefiihrt werden, wobei dieser Rechenaufwand selbst bei 
kontinuierlicher Spracherkennung mit groSem Vokabular aufgrund der Durchfiihrung 
eines Basiswechsels zur Reduzierung des Parameterraums auf einen Unterraum problemlos 
beherrschbar ist. Auf diese Weise kann der Eigenraum ohne direkte Nutzung der Millio- 
nen von Parametern efFizient gebildet werden. 



15 



20 



Die Erfindung wird im Folgenden unter Hinweis auf die beigefiigten Figuren anhand eines 
Ausfuhrungsbeispieis naher erlautert. Die nachfolgend dargestellten Merkmale und die 
bereits oben beschriebenen Merkmale konnen. nicht nur in den genannten Kombinationen, 
sondern auch einzeln oder in anderen Kombinationen erfindungswesentlich sein. 

Es stellen dar: 



Figur 1 eine schematische Darstellung des Ablaufs der verschiedenen Schritte des erfm- 
dungsgemaf?en Verfahrens zur Erzeugung eines Eigenraums 

25 

Figur 2 eine Veranschaulichung der Anpassung eines sprecherunabhangigen Modells an 
zwei verschiedene Sprecher 

Das erfindungsgemaEe Verfahren beginnt zunachst damit, dass das gesamte Sprachdaten- 
30 material der Trainingssprecher, bei dem vorliegenden Ausfiihrungsbeispiel von 300 

verschiedenen Sprechern, dazu verwendet wird, um ein gemeinsames sprecherunabhangi- 
ges Modell-Set mit verschiedenen sprecherunabhangigen Modellen SI fiir die verschiede- 
nen akustischen Einheiten zu trainieren. 
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Ein solches sprecherunabhangiges Modell SI fiir eine akustische Einheit ist in Figur 1 im 
ersten Schritt als durchgezogene, ellipsenformige Verteilung dargestellt. In der Realitat 
handelt es sich hierbei um ein Modell, das aus drei Zustanden besteht, welche durch 
5 mehrere Wahrscheinlichkeitsdichten beschrieben warden. Diese Dichten werden wiede- 
rum durch 33 akustische Merkmalsparameter beschrieben, bei denen es sich jeweils um die 
Mittelwerte der Wahrscheinlichkeitsdichten im Merkmalsraum handelt. Im folgenden 
Ausfuhrungsbeispiel werden als Merkmale 16 mel-cepstrale KoefFizienten und deren 16 
erste zeidiche Ableitungen verwendet. Als 33. Merkmal kommt die zweite Ableitung der 
10 Energie, d.h. des 0. mel-cepstralen Koeffizienten, hinzu. Selbstverstandlich kann ein 
solches Modell auch durch weniger Parameter oder durch noch weitere zusatzliche 
Parameter, beispielsweise die Varianzen der Dichteverteilungen, beschrieben werden. 

In einem zweiten Schritt werden diese sprecherunabhangigen Modelle SI jeweils unter 
15 Verwendung des Trainingsmaterials der einzelnen Train ingssprecher an die einzelnen 
Sprecher angepasst, d.h. es werden sprecherabhangige Modelle SD erzeugt. Bei dem in 
Figur 1 dargestellten Ausfuhrungsbeispiel wird das sprecherunabhangige Modell SI an vier 
verschiedene Sprecher angepasst. 

20 In Figur 2 wird das Verfahren anhand eines Beispiels mit nur zwei Trainingssprechern Si, 
$2 noch einmal genauer veranschaulicht. Die einzelnen Punkte entsprechen jeweils einzel- 
nen aufgetretenen Beobachtungen zu einer ganz bestimmten akustischen Einheit, die von 
den beiden Trainingssprechern S^, S2 gesprochen wurde. Es handelt sich um eine Darstel- 
lung in einem Merkmalsraum, der hier zur Veranschaulichung nur zwei Dimensionen 

25 aufweist. Ublicherweise wird jedoch eine einzelne Beobachtung nicht durch zwei, sondern 
eine Vielzahl - im vorliegenden Ausfuhrungsbeispiel wie gesagt 33 -unterschiedliche 
Merkmalsparameter beschrieben. Der Merkmalsraum ist daher im vorliegenden tatsach- 
lichen Ausfuhrungsbeispiel nicht zweidimensional wie in Figur 2, sondern 33-dimensional. 



30 



Wie zu sehen ist, sind die einzelnen Beobachtungen der bestimmten akustischen Einheit 
fiir beide Sprecher S^ S2 iiber weite Bereiche ordich verteilt, wobei sich im gezeigten Fail 
fur beide Sprecher Sp Sjdeudich jeweils zwei lokale Maxima herausgebildet haben. In 
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einem Modell ist diese akustische Einheit daher mit einer einzigen gaufischen Wahrschein- 
lichkeitsdichte nicht ausreichend gut modellierbar, sondern es muss eine Oberlagerung von 
mindestens zwei Wahrscheinlichkeitsdichten verwendet werden, um die zwei Maxima in 
der realen ortlichen Verreilung der Beobachtungen wiederzugeben. In der Realitat ist die 
5 Verteilung der Beobachtungen iiblicherweise noch difFuser, sodass fiir eine gute Modellie- 
rung um die 30 Wahrscheinlichkeitsdichten liberlagert werden. 

Um nun festzulegen, welche Dichte eines Modells fiir eine bestimmte akustische Einheit 
eines bestimmten Sprechers mit welcher Dichte des entsprechenden Modells fiir die gleiche 

10 akustische Einheit eines anderen Sprechers korrespondien, wird zunachst aus alien 

Trainingssprachdaten ein gemeinsames sprecherunabhangiges Modell trainiert. In Figur 2 
weist dieses Modell genau zwei sprecherunabhangige gauCsche Wahrscheinlichkeitsdichten 
SID^^\ SID*^' auf. Dieses sprecherunabhangige Modell wird dann in einem nachsten 
Schritt jeweils an die beiden einzelnen Sprecher S^, adaptiert, wobei das bekannte 

15 Trainingssprachmaterial der beiden einzelnen Sprecher Sp S2 verwendet werden kann. Dies 
fiihrt zu einem sprecherabhangigen Modell mit zwei Wahrscheinlichkeitsdichten SDD^^\, 
SDD^^\ fiir den ersten Sprecher S^ und zu einem weiteren sprecherabhangigen Modell mit 
zwei Wahrscheinlichkeitsdichten SDD^**2> SDD^^'2 den zweiten Sprecher S2. Da die 
Modelle jeweils aus dem gleichen sprecherunabhangigen „Start-"Modell entwickelt 

20 wurden, ist die Zuordnung der Wahrscheinlichkeitsdichten klar, es korrespondieren jeweils 
die Wahrscheinlichkeitsdichten SDD^'\, SDD^^\_ SDD^^\, SDD^^\ der beiden Sprecher 
Sp S2, die aus derselben Wahrscheinlichke its dichte SID^^\ SID^^^ des sprecherunabhangigen 
Modells entwickelt wurden. In dem in Figur 2 dargestellten vereinfachten Fall ist diese 
richtige Zuordnung auch durch die Lage der lokalen Maxima der Verteilungen der einzel- 

25 nen Beobachtungen der Sprecher Sp S2mit dem blofien Auge zu ersehen. Das Problem 
wird aber deutlich, wenn man bedenkt, dass bei einer realen Auswertung von Trainings- 
sprachdaten nicht zwei Verteilungen in einem zweidimensionalen Raum, sondern ca. 30 
Verteilungen in einem 33-dimensionalen Raum einander zuzuordnen sind, wobei die 
einzelnen Verteilungen eines Zustands eines Modells eng iibereinanderliegen. 

30 
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Durch das erfindungsgemafie Zuordnungsverfahren wird erreicht, dass eine klare Para- 
meterzuordnung jeder einzelnen Dichte, jedes einzelnen Zustands und jedes einzelnen 
Modells fiir jeden der Sprecher existiert. Anhand dieser bekannten Ordnung konnen dann 
samdiche Parameter fiir alle Sprecher jeweils in einen Supervektor pro Sprecher hinter- 
5 einander verkettet werden, wobei sichergestellt wird, dass in alien Supervektoren fiir alle 
Sprecher die gleiche Anordnung der Parameter vorliegt. Mit Hilfe dieser Supervektoren 
lasst sich dann jeder einzelne Sprecher genau als ein Punkt in dem hochdimensionalen 
Modellraum, im vorliegenden Ausfiihrungsbeispiel ein etwa 2xl0^-dimensionaler Raum, 
darstellen. Dieser Modellraum enthalt alle Informationen der Sprechervariationen im 
10 Training. 

Um die Informationen fiir eine spatere Spracherkennung effektiv nutzen zu konnen, ist 
eine Reduzierung der Datenmenge, insbesondere eine Reduzierung der Dimensionen des 
Modellraums, notwendig, ohne dass hierbei wesentliche Informationen verloren gehen. 

15 Hierzu wird die „Eigenvoice"-Methode verwendet> bei der auf den Supervektoren der 
einzelnen Sprecher eine Transformation durchgefiihrt wird, um die Basisvektoren eines 
Eigenraums zu finden. Bei dieser Transformation werden Reduktionskriterien angewendet, 
die auf der Variabilitat, beispielsweise der Varianz, der zu transformierenden Vektoren 
untereinander basieren. Eine Moglichkeit der Transformation ist — wie eingangs genannt — 

20 die „Principal Component Analysis" (PCA). Ebenso konnen aber selbstverstandlich auch 
hier andere geeignete Methoden wie die „Linear Discriminant Analysis" (LDA), die 
„Factor Analysis" (FA), die „Independent Component Analysis" (ICA) oder die „Singular 
Value Decomposition" (SVD) verwendet werden. 

25 Im folgenden Ausfiihrungsbeispiel wird davon ausgegangen, dass zum AufFinden der 

Eigenraum- Basisvektoren eine PCA-Transformation durchgefiihrt wird, d.h. es werden die 
Eigenvektoren einer mittels der Supervektoren der einzelnen Sprecher ermittelten Kova- 
rianzmatrix und die zugehorigen Eigehwerte gesucht. Diese Eigenvektoren bilden dann die 
Eigenraum-Basisvektoren. 

30 

In der folgenden detaillierteren mathematischen Beschreibung dieses Verfahrens werden 
folgende Notationen verwendet: 
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rip ist die Anzahl der anzupassenden Modellparameter; bei dem vorliegenden 

Ausfuhrungsbeispiel die Dimension des Merkmalsraums (d.h. die Anzahl der 
akustischen Merkmalsparameter), multipliziert mit der totalen Anzahl der 
5 Wahrscheinlichkeitsdichten 

ist die Anzahl der Trainingssprecher, durch die die Train ingssprachdaten erzeugt 
warden; « rip 

10 P ist der Modellraum, d.h. der Raum aller Modellparameter , bei dem vorliegen- 
den Ausfuhrungsbeispiel sind dies alle Mittelwerte aller Wahrscheinlichkeitsdichten 
im Merkmalsraum. ( Hierbei werden lineaie Strukturen verwendet. Dies muss bei 
der Darstellung von anzupassenden Parametern beriicksichtigt werden. Wenn z.B. 
Varianzen cr angepasst werden^ so bietet sich log (cr) als gute Koordinate an, um 

15 Transformationen zu sehr kJeinen oder sogar negativen Werten von C7 zu vermei- 

den). P hat die Struktur eines affinen euklidischen Raums, das bedeutet, dass 
Vektoren eines -dimensionalen Vektorraums verwendet werden konnen, um 
Translationen in P auf einem natiirlichen Weg zu definieren. Die Elemente von 
P werden im Folgenden einfach unterstrichen. Lineare Abbildungen in diesem 
-J 20 Raum sind zweifach unterstrichen. 

R. ist ein Element von P ( z.B. ein Satz von Modellparametern eines moglichen 
Sprechers), d.h. ein Supervektor eines Sprechers; / = 1 bis . 

25 Anstelle der Kovarianzmatrix der Supervektoren selbst wird im Folgenden die Kovarianz- 
matrix der DifFerenzvektoren D. der Supervektoren zu einem „mittleren Supervektor" 
Rj^ aller Sprecher bestimmt. 



- 15 - 



PHDE000155 



Ausgangspunkt ist hierfiir die Bestimmung des Mittelwerts R,^ fur die Supervektoren aJler 
Rj aller Sprecher: 

Dieser mittlere Supervektor Rj^ ist, wie Formel (1) zeigt, ein komponenrenweise gemittel- 
ter Supervektor aller Sprecher und reprasentiert somit ein mittleres Modell-Set der einzel- 
nen sprecherabhangigen Modell-S ets der Trainingssprecher. 

Anschliefiend werden die Abweichungen, d.h. die DifFerenzvektoren D., der einzelnen 
Supervektoren zu diesem mittleren Supervektor Rj^ bestimmt: 

D^-R^-R^ (2) 

Alle weiteren Berechnungen finden nun mit diesen Differenzvektoren D statt. 

In Figur 2 ist im untersten dargestellten Verfahrensschritt fur die beiden jeweiis 
zusammengehorigen sprecherabhangigen Dichten SDD**\, SDD^^*^ und SDD^^\ SDD^^*^ 
eine mittlere Dichte MD^^\ MD^^* dargestellt. Es handelt sich hierbei um Dichten MD^^\ 
MD^^\ die die gleiche Varianz aufweisen wie die sprecherabhangigen Dichten SDD^^\, 
SDD^^'^. SDD^'VSDD^'V Der Mittelwert dieser mittleren Dichten MD^'\ MD<^* liegt 
jeweiis im Mittelwert der Mittelwerte der jeweiligen einzelnen Dichten SDD^^\, SDD^^*2 
und SDD^^\, SDD^'^*^ der beiden Sprecher S^, S^. 

Die Kovarianzmatrix K der DifFerenzvektoren erhalt man durch Multiplikation der 
Vektoren als Zeilen in einer xw^ -Matrix D mit ihrer transformierten D'" : 



-16- 



PHDE000155 



Die i. a. z?^ Eigenvektoren E\->***E„^ dieser Kovarianzmatrix mit Eigenwert > 0 sind 
die an sich gesuchten Basisvektoren des Eigenraums. Bei diesen PCA-Eigenvektoren 
K\^-'Kns handelt es sich um die Hauptachsen der Kovarianzmatrix oder den „Trag- 
heits-Tensor". Die Eigenvektoren entsprechen jeweils den Achsen, entlang derer sich die 
5 einzelnen Sprecher voneinander unterscheiden. Da die Kovarianzmatrix aus den 

Differenzvektoren der Supervektoren Rj zu dem mittleren Supervektor Rj^ gebildet 
wurde, verlaufen die Eigenvektoren E\,'"E^^ jeweils durch den mittleren Supervektor 
Rj^ , der den Ursprung des Eigenraums bildet. 

10 Fur zwei Dimensionen sind die Richtungen der Eigenvektoren in dem unteren Teil von 
Figur 2 anschaulich dargestellt. Sie laufen jeweils durch den Mittelpunkt der aus den 
beiden sprecherabhangigen Dichten SDD^^\, SDD^^^2 ^"^1 SDD^^\ SDD^^*2 gebildeten 
mittleren Dichten MD^*\ MD^^^ entlang der Verbindungsrichtung der beiden jeweils zu 
einer mittleren Dichte MD^^^ MD^^^ gehorigen sprecherabhangigen Dichten SDD^*\, 

15 SDD^^*2 und SDD^'\,SDD^'\. 

Da jedoch derartige Transformationen wie die Berechnung der Eigenvektoren einer 
Kovarianzmatrix in einem nahezu 2xl0^-dimensionalen Raum aufierst rechenaufwendig 
sind und hierzu ein enormer Hauptspeicherplatz benotigt wird (um bei den erforderlichen 
20 Rechenoperationen die Vektoren und Matrizen zu speichern), lassen sich diese Transfor- 
mationen mit den derzeit vorhandenen Rechnern kaum realisieren. Daher ist ein weiterer 
Schritt erforderlich, um den Raum vor der eigentlichen Berechnung der Eigenraum- 
Basisvektoren zu reduzieren. 

25 Hierzu wird zunachst eine Orthonormal-Basis gesucht, die einen Unterraum (im Folgen- 
den auch Sprecher- Unterraum genannt) innerhaJb des Modellraums aufspannt, in der 
samtliche zu den einzelnen Sprechern bzv^. deren Modellen gehorige Differenzvektoren 
reprasentiert sind, Um diese Orthonormal-Basis zu finden, wird eine einfache Basistrans- 
formation durchgefuhrt, die relativ wenig Rechenaufwand fordert. Im folgenden Ausfiih- 

30 rungsbeispiel wird hierbei das Gram-Schmidtsche Orthonormierungsverfahren gewahlt. 
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Selbstverstandlich kann auch ein anderes einfaches Transformationsverfahren fiir einen 
Basiswechsel, beispielsweise eine Lowdin-Transformation, verwendet werden. 

Bei der Durchfuhrung des Gram-Schmidtschen Orthonormierungsverfahrens wird 
5 zunachst einer der Dififerenzvektoren, beispielsweise als erster Schmidt-Basisvektor S^^ 
der gesuchten O rt h on ormal- Basis genutzt und lediglich normiert. Anschliefiend wird ein 
zweiter Differenzvektor D2 zu diesem ersten Schmidt-Basisvektor 5, orthonornniert, 
indem dieser zweite Differenzvektor D2 zunachst auf den ersten gefundenen Schmidt- 
Basisvektor 5 1 projiziert wird, und die zu dem ersten Schmidt-Basisvektor *Sj parallele 

10 Komponente des zweiten DifFerenzvektors D2 vom zweiten Differenzvektor D2 abgezo- 
gen wird. Die verbleibende, zum ersten Schmidt-Basisvektor S^^ senkrechte Komponente 
des zweiten Differenzvektors D2 wird dann normiert und bildet so den zweiten Schmidt- 
Basisvektor • Entsprechend wird mit den weiteren Differenzvektoren bis 
verfahren, wobei jeweils zunachst alle Komponenten parallel zu den bereits bestehenden 

15 Schmidt-Basisvektoren S_- abgezogen werden und die dazu senkrechte Komponente als 
neuer Schmidt-Basisvektor ^3 bis normiert wird. 

Da auch eine solche Orthonormierung von 300 Vektoren in einem etwa 2xl0^-dimen- 
sionalen Raum aufgrund des begrenzten Speicherplatzes in normalen Rechnern nicht ohne 



weiteres durchfuhrbar ist, wird bei dem konkreten Ausfiihrungsbeispiel diese Orthonor- 
mierung blockweise durchgefiihrt. Dabei wird davon ausgegangen, dass der Hauptspeicher 
des Rechners in der Lage ist, gleichzeitig In -Supervektoren abzuspeichern. Es wird dann 
wie folgt vorgegangen: 

25 Zunachst werden die ersten 2n -Vektoren D^X 2„ orthonormiert und ihre Darstellung in 
der neuen gefundenen Basis 5i 2m gespeichert. 

Fur jeden weiteren Block von /? -Vektoren werden dann zunachst fiir jeden Block von 
n orthonormierten Schmidt-Basisvektoren S_j , die bereits aufgefunden wurden, die 
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} 



Projektionen der D_i auf diese S_j subtrahiert. Die Projektions-KoefFizienten D^i in dcr 

aufgefundenen Orthonormal-Basis werden hierbei zur Reprasentation der in der 
Orth on ormal- Basis gespeichert. Anschliefiend wird der Rest, d.h. die senkrechten Kompo- 
nenten, untereinander orthonormiert. 'Die neu aufgefundenen Schmidt-Basisvektoren 
S_j der Orthonormal-Basis und die Reprasentations-Koeffizienten der einzelnen DifFerenz- 

vektoren in dieser Basis werden dabei wiederum gespeichert. 
Eine solche Gram-Schmidtsche Orthonormierung benotigt 



10 nj[ -n,{n, - \) + n,y~nln^ (4) 



floating-point-Operationen. Dies sind zum Beispiel bei 300 Sprechern und 1 000 000 
Dimensionen nahezu 10^^ einzelne Operationen, die in etwa ein bis zwei Stunden CPU- 
Zeit durchfiihrbar sind. 



15 



Da die DifFerenzvektoren D, uber den mittleren Supervektor gemafi den Formeln (1) 
und (2) zusammenhangen, sind sie linear abhangig. Dementsprechend wird ein Orthonor- 
mal-Basisvektor weniger benotigt als Trainingssprecher vorhanden sind. Dies entspricht 

ydem anschaulichen Beispiel, dass sich drei Punkte innerhalb eines dreidimensionaJen 
20 Raums immer in einer gemeinsamen Flache darstellen lassen, d.h. es wird auch hier 

maximal ein zwei dim ensionaler Unterraum benotigt, um die drei Punkte des dreidimen- 
sionalen Raums darzustellen. Die Einsparung einer Dimension (da ein Freiheitsgrad fur die 
— hier ohnehin unwesentliche - Information der Position der Sprecher relativ zum absolu- 
ten 0-Punkt des Modellraums eingespart wird) ist ein Grund, warum beim vorliegenden 
25 Ausfiihrungsbeispiel die DifFerenzvektoren der Sprecher und nicht die Supervektoren 
R. selbst zur Bildung des Sprecher-Unterraums und zur Berechnung der Kovarianzmatrix 
herangezogen werden. AuSerdem ware sonst der Koordinatensprung in den Eigenraum 
einbezogen, der jedoch zur Sprecheradaptierung keinen sinnvollen Beitrag liefert. 



30 
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Auf Wunsch kann auGerdem der Supervektor des urspriinglich geschafFenen gemeinsamen 
sprecherunabhangigen Modells fiir alle Trainingssprecher in dieser neuen Schmidtschen 
Ortho normal- Basis dargestellt werden. In diesem Fall erhoht sich die Basis natiirlich um 
eine Dimension, Die Dimension des Unterraums entspricht dann der Anzahl der Sprecher, 
5 da ja das gemeinsame sprecherunabhangige Modell durch einen eigenen, von den Super- 
vektoren der einzelnen Sprecher unabhangigen Supervektor reprasentiert wird und somit 
einen zusatziichen gemischten Sprecher darstelltj welcher eine besonders gro^?e Varianz 
betrefFend der einzelnen akustischen Einheiten aufweist. 

10 Anstelle der Matrix der Abstandsvektoren -D, im kompletten Modellraum konnen nun 
die Darstellungen der DifFerenzvektoren innerhalb der Schmidtschen Orthonormal- 
Basis des Sprecher-Unterraums in Spalten zu einer Matrix 0^ kombiniert werden. Diese 
, Matrix d_ ist eine x^?^ -Matrix, d.h. sie hat nur noch 300 mal 300 Elemente. Im 
Gegensatz dazu enthalt die Matrix D der DifFerenzvektoren im urspriinglichen 

15 Modellraum 300 mal ca. 2 000 000 Elemente. 

Fiir die gesuchte Kovarianzmatrix der DifFerenzvektoren gilt dann 

20 

w^obei S eine x 7?^ -Matrix der in Spalten kombinierten Basisvektoren S^. der Schmidt- 
schen Orthonormal-Basis ist. Da die Basisvektoren 5 . orthonormal sind, reicht eine 
Diagonalisierung von 6^^ 6^ und eine anschliefiende RiicktransFormierung mit der Matrix 
5 aus, um die PCA-Eigenvektoren E\,*.*E„^ im Modellraum zu finden. Da die Vektoren 
25 Dj selbst zur Orthonormierung geFuhrt haben, ist die Matrix 0 der Darstellungen der 
DifFerenzvektoren Dj in der Schmidtschen Orthonormal-Basis eine Dreiecksmatrix, v^^as 
die Diagonalisierung von 0^"^ 0 besonders einfach macht. 
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Das Ergebnis ist dann ein Eigenraum, lessen Dimension der Anzahl der Sprecher —1 
entspricht, dessen Ursprung im Mittelpunkt aller urspriinglichen Supervektoren der 
einzelnen Sprecher liegt und dessen Basisvektoren E^,.,,E^^ entlang der Variabilitaten der 
5 einzelnen Sprecher verlaufen. 

Alternativ ist es naturlich auch moglich, zunachst eine Orthonormal-Basis der Supervekto- 
ren selbst durch einen einfachen Basiswechsel, beispielsweise eine G ram- Schmidt- Ortho- 
normierung, zu finden. Diese so gefundene Basis kann dann im Ursprung auf den Mittel- 

10 wert aller Supervektoren verschoben werden, und anschlief?end wird erst die PCA- 

Methode zur Ermittlung der Eigenvektoren durchgefuhrt. Dieses Verfahren der Bildung 
einer Schmidtschen Orthonormal-Basis aus den Supervektoren selbst, einer anschliefienden 
Mittelv^ertbildung in der neuen Basis und einer darauf folgenden Durchfuhrung des PCA- 
Verfahrens sowie der anschlie{?enden Rucktransformation ist in Figur 1 in den letzten drei 

15 Verfahrensschritten dargestellt. 

Ebenso kann naturlich auch auf der durch den einfachen Basiswechsel aufgefundenen 
Orthonormal-Basis der Supervektoren die PCA-Methode durchgefuhrt werden und 
anschliefiend eine Transformation auf einen gewiinschten Ursprung durchgefuhrt werden. 
20 Weiterhin kann anstelle des Mittelwerts aller Supervektoren auch der Supervektor des 

gemeinsamen sprecherunabhangigen Modells aller Trainingssprecher als Ursprung fiir den 
Eigenraum verwendet werden. 

Der aufgefundene Eigenraum (und die Darstellungen der Sprecher hierin) ist bereits 
25 gegeniiber dem urspriinglichen Modellraum erheblich reduziert und enthalt dennoch alle 
Informationen iiber die Sprechervariationen im Training. Er ist aber immer noch zu 
komplex, um wahrend einer schnellen Erkennung genutzt zu werden. Daher ist es not- 
wendig, die Dimension weiter zu verringern. Dies kann dadurch erreicht werden, dass 
einfach einige der Eigenvektoren verworfen werden. 

30 

Hierzu konnen in dem PCA- Verfahren nicht nur die Eigenvektoren, sondern auch die 
zugehorigen Eigenwerte der Kovarianzmatrix ^ermittelt werden. (Unter „Eigenwerten" 
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werden im Sinne dieser Schrift, anders aJs in der eingangs genannten EP 0 984 429 A2 , 
nicht die KoefFizienten eines Modells bei der Darstellung als Linearkombination der 
Eigenvektoren verstanden, sondern der zu dem jeweiligen Eigenvektor der Matrix 

gehorige Eigenwert e , fiir den gilt: K^ — e K^). Diese Eigenwerte konnen genutzt 
5 werden, um eine Rangordnung der Eigenvektoren festzulegen. Je hbher der Eigenwert, 
desTo wichtiger ist der zugehorige Eigenvektor E^ zur Unterscheidung zweier verschie- 
dener Sprecher. Daher ist es moglich, eine bestimmte Anzahl von den wichtigsten 
Eigenvektoren herauszusuchen, welche tatsachlich fiir die Aufspannung eines Eigenraums 
fiir ein Spracherkennungssystem verwendet werden sollen. In einem bereits durchgefiihrten 
10 Ausfiihrungsbeispiel des Verfahrens sind das lediglich die Eigenvektoren mit den zehn 

grofiten Eigenwerten, in einem anderen Beispiel die Eigenvektoren mit den 50 wichtigsten 
Eigenwerten. 

Es versteht sich von selbst, dass dann auch nur diese tatsachlich zur Aufspannung des 
15 Eigenraums verwendeten Eigenvektoren, die sogenannten „Eigenvoices" E^^y in den 
Modellraum zuriicktransformiert werden miissen und nicht samtliche aufgefundene 
Eigenvektoren der Kovarianzmatrix Durch diese Wahl der Basis fur den Eigenraum ist 
sichergestellt, dass bei einer Projektion eines Supervektors auf den reduzierten Eigen- 
raum mit nur Dimensionen, vergiichen mit dem original Supervektor jR, , der 
20 resultierende mittlere quadratische Fehler minimiert ist . 

Der so aufgefundene Eigenraum kann auf verschiedene Weise genutzt werden, um 
moglichst schnell ein Ausgangsmodell an einen neuen Sprecher in geeigneter Weise 
anzupassen. Insofern kann dieser Eigenraum auch als kompletter Datensatz, der bereits alle 
25 wesentlichen Informationen der Trainingssprachdaten in vorausgewerteter Weise enthalt, 
in verschiedene Spracherkennungssysteme implementiert werden, die auf unterschiediiche 
Weise die Daten zur Anpassung eines Ausgangsmodells an einen neuen Sprecher nutzen. 
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L Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von 

Trainingssprechern mit folgenden Schritten: 

Entwicklung von sprecherabhangigen Modell-Sets fiir die einzelnen Trainings- 
sprecher unter Verwendung von Train ingssprachdaten der einzelnen Trainings- 
sprecher, wobei die Modelle (SD) eines Modell-Sets jeweils durch nnehrere 
Modellparameter beschrieben werden, 

Abbildung eines kombinierten Modells fur jeden Sprecher in einem hochdimensio- 
nalen Vektorraum (Modellraum) durch Verkettung einer Mehrzahl der Modell- 
parameter der Modelle der Modell-Sets der einzelnen Trainingssprecher zu jeweils 
einem zusammenhangenden Supervektor, 

Durchfiihrung einer Transformation unter Reduzierung der Dimension des 
Modellraums zur Gewinnung von Eigenraum-Basisvektoren {E^ ), 
gekennzeichnet durch folgende Schritte: 

Entwicklung eines gemeinsamen sprecherunabhangigen Modell-Sets fiir die 
Trainingssprecher unter Verwendung der Trainingssprachdaten der Trainings- 
sprecher, 

Adaption des sprecherunabhangigen Modell-Sets an die einzelnen Trainings- 
sprecher zur Entwicklung der sprecherabhangigen Modell-Sets unter Verwendung 
der jeweiligen Trainingssprachdaten der einzelnen Trainingssprecher, 
Erfassung der Zuordnung der Modellparameter der Modelle (SI) des sprecherunab- 
hangigen Modell-Sets zu den Modellparametern der Modelle (SD) der sprecherab- 
hangigen Modell-Sets bei der Adaption des sprecherunabhangigen Modell-Sets an 
die einzelnen Trainingssprecher, 
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Verkettung der Mehrzahl der Modellparameter der einzelnen Modell-Sets zu den 
Supervektoren derart, dass die Modellparameter der Modelle (SD) der sprecher- 
abhangigen Modell-Sets, die denseiben Modellparametern desselben Modells (SI) 
des sprecherunabhangigen Modell-Sets zugeordnet sind, an den entsprechenden 
Positionen der jeweiligen Supervektoren angeordnet werden. 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet> 

da5s die Modelle (SI, SD) Hidden-Markow-Modelle sind, wobei jeder Zustand eines 
einzelnen Modells (SI, SD) jeweils durch eine Mischung mehrerer Wahrscheinlichkeits- 
dichten beschrieben wird und die Wahrscheinlichkeitsdichten jeweils dutch mehrere 
akustische Merkmale in einem akustischen MerkmaJsraum beschrieben werden. 

3. Verfahren nach Anspruch 1 bder 2, 
dadurch gekennzeichnet, 

dass die Transformation zur Ermittlung der Eigenraum-Basisvektoren {E^) ein auf der 
Variabilitat der zu transformierenden Vektoren basierendes Reduktionskriterium nutzt. 

4. Verfahren nach einem der Anspriiche 1 bis 3, 
dadurch gekennzeichnet> 

dass fiir die Eigenraum-Basisvektoren (E^) zugehorige Ordnungsmerkmale ermittelt 
werden. 

5. Verfahren nach Anspruch 4, 
dadurch gekennzeichnet. 

dass die Eigenraum-Basisvektoren {E^) die Eigenvektoren einer mittels der Supervektoren 
ermittelten Korrelationsmatrix und die Ordnungsmerkmale die zu den Eigenvektoren 
gehorigen Eigenwerte sind. 
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6. Verfahren nach Anspruch 4 oder 5, 
dadurch gekennzeichnet« 

dass zur Reduzierung der Dimension des Eigenraums eine bestimmte Anzahl von Eigen- 
raum-Basisvektoren (E^) unter Beriicksichtigung der OrdnungsmerkmaJe verworfen wird. 

5 

7. Verfahren nach einem der Anspriiche 1 bis 6, 
dadurch gekennzeichnet. 

dass zur der hochdimensionale Modellraum zunachst durch einen Basiswechsel auf einen 
Sprecher-Unterraunn reduziert wird, in dem samtliche Supervektoren aller Trainings- 
Ij^^^ 1^ sprecher reprasentiert sind und in diesern Sprecher-Unterraum die Transformation zur 
Ermittlung der Eigenraum-Basisvektoren (Eg) durchgefiihrt wird. 

8. Verfahren nach einem der Anspriiche 1 bis 7, 
dadurch gekennzeichnet, 

15 dass die Transformation zur Ermittlung der Eigenraum-Basisvektoren (E^) auf den 

DifFerenzvektoren der Supervektoren der einzelnen Trainingssprechern zu einem mittleren 
Supervektor durchgefiihrt wird. 

9. Verfahren zur Spracherkennung, bei dem ein Ausgangs-Modell-Set anhand bereits 
20 beobachteter, zu erkennender Sprachdaten eines alctuellen Sprechers an diesen Sprecher 

/jjtti ' unter Verwendung eines Eigenraums angepasst wird, welcher auf Basis von Trainings- 

sprachdaten einer Mehrzahl von Trainingssprechern nach einem Verfahren gemal? einem 
der vorstehenden Anspriiche ermittelt woirde. 

25 10. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens 
nach einem der vorstehenden Anspriiche auszufiihren, wenn das Programm auf einem 
Computer ausgefiihrt wird. 
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11. Computerprogramm mit Programmcode-Mitteln gemafi Anspruch 10, die auf einem 
computerlesbaren Datentrager abgespeichert sind. 
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